2.6 AI 모델 평가 지표(Metrics)와 테스트 오라클의 구분
- 2.6 AI 모델 평가 지표(Metrics)와 테스트 오라클의 구분
- 2.6.1 BLEU, ROUGE, METEOR 등 전통적 NLP 지표의 한계와 오라클로서의 부적합성
- 2.6.2 LLM 전용 지표(Perplexity, Truthfulness 등)와 비즈니스 요구사항의 괴리
- 2.6.3 정량적 점수(Score)를 이진 판정(Pass/Fail) 오라클로 변환하는 기준
- 2.6.4 인간 평가(Human Evaluation)와 자동화된 오라클 간의 상관관계 분석
- 2.6.5 지표 해킹(Metric Hacking) 방지를 위한 다차원적 오라클 구성